学习一种新语言涉及不断比较语音作品与环境的参考作品。在言语获取的早期,孩子们进行了发音调整以符合他们的看护人的言论。一种语言的成年学习者调整他们的演讲以匹配导师参考。本文提出了一种合成产生正确的发音反馈的方法。此外,我们的目标是在保持演讲者的原始声音的同时产生校正后的生产。该系统提示用户发音短语。记录语音,并用与不准确音素相关的样品用零掩盖。该波形是对语音生成器的输入,作为具有U-NET体系结构的深度学习介绍系统实现,并经过培训以输出重建的语音。该训练集由未损坏的适当语音示例组成,并且对发电机进行了训练以重建原始的适当语音。我们评估了系统的性能在音素替代英语以及发音障碍儿童的最小对单词方面的性能。结果表明,人类听众稍微偏爱我们产生的语音,而不是用不同的扬声器的生产来平滑地替换音素。
translated by 谷歌翻译
In this paper, we explore the relationship between an individual's writing style and the risk that they will engage in online harmful behaviors (such as cyberbullying). In particular, we consider whether measurable differences in writing style relate to different personality types, as modeled by the Big-Five personality traits and the Dark Triad traits, and can differentiate between users who do or do not engage in harmful behaviors. We study messages from nearly 2,500 users from two online communities (Twitter and Reddit) and find that we can measure significant personality differences between regular and harmful users from the writing style of as few as 100 tweets or 40 Reddit posts, aggregate these values to distinguish between healthy and harmful communities, and also use style attributes to predict which users will engage in harmful behaviors.
translated by 谷歌翻译
声带煎炸或吱吱作响的声音是指以不规则的发光开口和低音为特征的语音质量。它以各种语言发生,并且在美国英语中很普遍,不仅可以标记词组结局,还用于社会语言因素和影响。由于其不规则的周期性,吱吱作响的声音挑战自动语音处理和识别系统,尤其是对于经常使用吱吱作响的语言。本文提出了一个深度学习模型,以检测流利的语音中的吱吱作响的声音。该模型由编码器和经过训练的分类器组成。编码器采用原始波形,并使用卷积神经网络学习表示。分类器被实现为多头完全连接的网络,该网络训练有素,可检测吱吱作响的声音,发声和音调,最后两个用于完善吱吱作响的预测。该模型经过对美国英语说话者的言语的培训和测试,并由训练有素的语音家注释。我们使用两个编码器评估了系统的性能:一个是为任务量身定制的,另一个是基于最新的无监督表示。结果表明,与看不见的数据相比,我们表现最佳的系统的回忆和F1得分有所改善。
translated by 谷歌翻译
无人机尚未完全信任。他们对导航的无线电和摄像机的依赖提高了安全性和隐私问题。这些系统可能会失败,导致事故,或滥用未经授权的录音。考虑到最近的法规,允许商业无人机仅在晚上运营,我们提出了一种从完全新的方法,无人机从人工照明中获得导航信息。在我们的系统中,标准灯泡调制其强度发送信标,无人机用简单的光电二极管解码此信息。该光学信息与无人机中的惯性和高度传感器组合,以提供定位,而无需无线电,GPS或相机。我们的框架是第一个提供3D无人机定位的灯光,我们用一个由四个光标记和迷你无人机组成的试验台来评估它。我们表明,我们的方法允许将无人机定位在实际位置的几个小叠内,并与最先进的定位方法相比,将本地化误差降低42%。
translated by 谷歌翻译